Object detection with location-aware deformable convolution and backward attention filtering

在本文中，提出了一种位置感知的可变形卷积和后向注意滤波，以提高检测性能。可感知位置的可变形卷积通过从存在信息上下文的地方对输入进行采样来提取不均匀分布的上下文特征。后向注意过滤模块通过突出信息性特征并使用来自深层的语义特征抑制干扰性特征来过滤高分辨率特征图。

从主干神经网络backbone中提取出Conv1-Conv6，从Conv3开始使用位置感知变形卷积（location-aware deformable convolution）以增强上下文信息，获得增强的Conv3，Conv4，Conv5。在向后传递的过程中，有三个后向注意过滤模块（backward
attention filtering），每个模块都使用前一个模块的输出来过滤输入特征映射，三个经过过滤的特征映射被输入到区域生成网络（RPN），经过skip pooling整合然后进行分类预测。

一般的可变形卷积，只有一个基于标准卷积相同感受野的卷积层来预测所有的偏移。可是使用相同感受野以及卷积层对每个输入样本进行偏移预测可能无法获得最优的结果；此外，感受野太小在偏移预测时不能查看周围的特征，也使其不能捕获有用的上下文信息。

其中I为输入特征，O为输出特征，D为膨胀率，pn为相对于中心的位置变化，Δn为偏移；
如上图所示，首先使用1×1的卷积来压缩通道至64，经过1×1卷积，9个3×3卷积层Cn, n∈{0,1，，，8}用于估计每个输入样本的偏移量卷积层Cn位于pc+D·pn。因此，每个输入样本的偏移估计是由其位置和独特的环境决定的；之后由于预测的偏移通常是小数，使用插值以获得对应的特征值，最后计算加权和得到最终输出。
Location-aware deformable convolution的目的是为了获得更丰富的上下文信息，得到的结果需要与标准卷积的结果一起处理，将两者连接起来，然后使用1×1卷积压缩到原来的通道数组成最终的输出特征。

反向注意过滤模块的架构如图5所示。注意过滤模块有两个输入，一个是待过滤的目标特征图T，另一个是更深卷积层的语义特征图S，用来生成注意图。将上层语义信息使用3×3卷积后进行sigmoid激活，作为注意力，然后上采样（Aup）到对应大小与当前层特征相乘。

使用相同backbone与faster R-CNN间的效果对比。使用两个backbone，本文的方法效果对比Faster R-CNN均有较大的提高，最高分别提升2.9与3.4个点。每个模块的使用也都有相应的提升。其中(a)为仅使用location-aware deformable convolution，(b)仅使用backward attention filtering，(c)同时使用两个模块。

Location-aware deformable convolution模块与一般的convolution以及deformable convolution间的对比，同时对比了不同膨胀率的结果。最优的结果是使用膨胀率为2的膨胀卷积。

与其他使用attention机制的方法的对比。本文提出的backward attention filtering的效果最佳。

本文结果与其他方法的对比。本文提出的虽不至于在效果上达到最优，但是均衡了速度与性能。